Skip to content

什么是大语言模型

很多人把ChatGPT = 大语言模型(大模型):

image-20250221131832704

但是,大模型应用(ChatGPT)与大模型,还有大语言模型是有区别的。

只要是用文字表达的事,它都能解决?

之前也有聊天机器人,为什么它就火了?感觉它就要颠覆世界了?

...

概念

“大”、“语言”、“模型”,从逐字的角度来分析,可以帮助我们从基础概念深入理解大语言模型(LLM)。这个分析方式既能帮助初学者了解其基本含义,又能揭示这些组件之间的关系。

  1. “大”(Large)

“大”指的是模型的规模,包括两个方面:

  • 参数的规模:大语言模型拥有数十亿到数万亿个参数。模型的参数越大,通常能学习到更丰富的语言模式和世界知识,从而处理更加复杂的任务。

  • 数据的规模:大语言模型通常会在大规模的文本数据上进行训练,覆盖广泛的语言领域和多样的任务。这使得大语言模型具备更强的泛化能力(后面说明),能够应对多种应用场景。

  1. “语言”(Language)

这里的“语言”不仅仅指自然语言(如英语、中文),也涉及到如何理解和生成语言中的语法、语义以及上下文信息。

语言模型通过对大量文本的训练,学习如何理解句子中的词汇之间的关系,并生成符合语法和逻辑的文本。

  1. “模型”(Model)

大语言模型基于神经网络(尤其是Transformer架构),可以通过对输入的文本进行处理,生成语法、语义合理的输出。

ChatGPT,其中Chat是聊天的意思,而GPT是Generative Pre-Trained Transformers,直译过来就是“生成预训练变换器”。

Training the Transformer Model - MachineLearningMastery.com

其核心任务是通过从大量数据中提取规律和知识,生成新的、相关的文本。

“大语言模型”可以被看作是一个超大规模的、处理和生成自然语言的人工智能模型,它能够理解上下文、识别语义并进行合理的文本生成

参数

image-20250221143720903

截止到2023年,上图中反映出来的是典型大模型及它们的参数量、训练数据量。

我们以GPT1为例,来说明一下大模型的参数:

在GPT(Generative Pre-trained Transformer)系列模型中,特别是GPT-1(即最初的版本)

GPT-1的架构

GPT-1的架构基于Transformer的解码器(Decoder),与传统的Encoder-Decoder架构不同,它只使用了解码器部分。它的参数量主要取决于以下几个部分:

  1. 词嵌入(Word Embedding):用来将每个输入词(或子词)转换为固定长度的向量

  2. 多头自注意力(Multi-Head Attention):每个解码器层中的核心部分,含有多个注意力头

  3. 前馈网络(Feed-Forward Network):每个解码器层中紧随自注意力模块的全连接网络

  4. 输出层(Output Layer):将最后的隐藏状态映射到词汇表中的每个词的概率分布

GPT-1的参数计算

GPT-1模型包含多个解码器层,每个解码器层包括以下几个主要部分:

  • 词嵌入层(Word Embedding)

  • 自注意力层(Self-Attention)

  • 前馈神经网络(Feed-Forward Neural Network)

  • 输出层(Output Layer)

随着模型规模的增加,GPT-2、GPT-3等模型的参数计算也遵循类似的规则,但参数量随着模型的深度(层数)、嵌入维度、头数等的增加而增长。例如:

  • GPT-2:具有更高的嵌入维度(例如1,024维)、更多的层(例如48层)以及更多的注意力头(例如16头)。这些因素都会导致参数量的增加。

  • GPT-3:嵌入维度达到12,288,层数为96层,头数为96,这使得其参数量达到了1750亿。

GPT系列模型的总参数量与以下几个因素直接相关:

  • 层数

  • 词嵌入的维度

  • 每层的头数

  • 词汇表大小

  • 前馈网络的维度

总的来说,GPT系列模型的参数量随着这些配置的增大而呈指数级增长。

数据

image-20250221114731880

通用文本数据:绝大多数的LLM 采用了通用的预训练数据,比如网页、书籍和对话文本等,这些数据源提供了丰富的文本资源,并且涉及了多种主题。

  • 网页数据(黄色区域)

  • 对话数据(蓝色区域)

  • 书籍与新闻数据(绿色区域)

  • 科学数据(紫色区域)

  • 代码数据(蓝色小圆圈区域)

模型的训练数据越多样化,越能帮助模型理解不同领域的知识和语言规律。例如,包含网页数据对话数据的模型能够生成自然且流畅的对话内容,而涵盖科学数据的模型能够理解和生成专业领域的术语和技术内容。

  1. 丰富的语料库使模型能够学习更多语言结构和语义

模型的能力不仅取决于其规模,还取决于训练数据的质量和多样性。从图中来看,如 T5mT5 这类模型几乎完全基于网页数据(100%),而 GLaM(1200B参数)则有更为广泛的训练数据,包括网页、书籍和科学数据。这些不同的文本来源帮助模型学会理解不同的语言结构、语境、情感、专业术语等,从而提升了模型生成文本的能力。

  1. 特定领域数据提升专业任务的表现

特定领域的数据,比如代码数据(如 AlphaCodeCodeGen),能够显著提高模型在特定任务上的表现。例如,AlphaCode 通过专注于代码数据,能够生成和理解代码,帮助程序员提高工作效率。这表明,针对特定任务的专用数据能够让模型在这些任务上表现得更好。

  1. 多任务学习和迁移能力

具有多种数据来源的模型,如 PaLMLaMDA,通常具备较强的多任务学习能力。这些模型不仅能生成文本,还能进行文本分类、翻译、问答等任务。通过从多个领域的数据中学习,模型能够在一个领域的知识上“迁移”并应用到其他领域,从而表现得更加灵活和高效。

模型(机器学习)

image-20250221154738261

我们广义上理解的模型,更像一个缩小版的玩具,一个对应实物的示意,作用是高仿真实的物体,传达对应的信息。

“模型”指的是使用机器学习算法,通过大量数据训练而来的数学表示

大语言模型像是人类大脑的缩小版或“高仿真玩具模型”。它通过大量的训练数据(比如文本、对话等)来“学习”如何生成合理的输出。虽然它通过大量的计算和参数来捕捉语言规律和语义,但它并没有真正理解语言,只是在基于统计模式进行推测和生成。因此,它是一个高度精简且没有意识的仿真模型。

模型决定了机器如何学习,如何训练,如何推理(吐词)输出。

架构演进与模型对应的关系:

image-20250221151233098

资源推荐

聚合API平台

一站式购买多种AI服务API,供用户选择和购买。

国外推荐:

  • OpenRouter:提供了大语言模型API的聚合,用户可以通过该平台购买和管理多个大语言模型的API,简化了接入多个API的复杂度。

    最全面,使用量最大,而且付费也比较友好的平台,价格基本上与官方一致。

国内推荐:

  • AIHubMix:是一个提供API聚合的平台,用户可以通过它购买和接入各种AI模型,涵盖自然语言处理、计算机视觉等多种应用场景。

    可以支付宝进行付款,部分热门模型可以会加价10%,大部分模型是平价,而且是低于官方的价格

  • Siliconflow:主要是国内的模型应用,下面是一些旗下的产品

    • SiliconCloud:一站式大模型云服务平台,提供文本、图像、语音、视频等多模态生成服务,集成多种主流开源大模型,并内置推理加速引擎。
    • SiliconLLM:高效的大语言模型推理引擎,支持国内外主流芯片部署,在超长上下文、低延迟等复杂场景中表现出色,推理速度提升最高可达10倍。
    • OneDiff:高性能的文生图/视频加速库,支持Stable Diffusion等模型,性能提升高达3倍,实现1秒内生成高质量图像。
    • SiliconBrain:面向企业用户的一站式AI应用开发平台,支持模型微调与托管,基于DevOps原理,实现持续集成、交付和部署,帮助企业降低维护成本。

模型平台

多种开源和商业化模型的聚合,用户可以根据需要选择不同的模型进行应用。

  • Hugging Face:是目前最流行的AI模型聚合平台之一,提供多种预训练模型,涵盖NLP、计算机视觉等多个领域,并且支持开源和商用模型的访问

  • ModelScope:由阿里巴巴提供的一个聚合平台,支持多种模型的部署与使用,提供面向各行各业的AI模型,包括NLP、CV等多种模型

  • Civitai:Civitai是一个专注于AI图像绘画和艺术作品创作和分享的在线平台和社区,用户可以上传和共享他们使用自己的数据训练的自定义模型(主要基于StableDiffusion),也可以浏览、下载和评论其他用户创建的模型

AI工具

关键词搜索“AI聚合网站”,“AI工具集”,“AI导航”...